﻿ Limba română în era digitală Dan Cristea Institutul de Limbi Moderne “Appolonia”, Iași, 18 octombrie 2012 Europa mullinguală • Ne deﬁnește ca arie culturală • UE cheltuiește aprox un miliard de euro pe an pentru menţinerea policii noastre asupra mullingvismului (ex traduceri, interpretări) • Dar multudinea de limbi este neprielnică afacerilor Limbile sunt ameninţate • Limbile sunt ameninţate: – internetul și limba engleză atacă dureros limbile mici – dar nici limba engleză nu iese neansă • Posibile soluţii pentru a face faţă multudinii limbilor: – dă voie unei singure limbi să aibă o poziţie predominantă: inacceptabil! – încurajează învăţarea limbilor străine: DA, dar e imposibil să înveţi 23 limbi oﬁciale (60 de toate) – dezvoltă tehnologii lingvisce… META-NET • META-NET: Alianţa Tehnologică pentru o Europă Mullingvă (Mullingual Europe Technology Alliance) – reţea de excelenţă: 53 de membri din 33 de ţări europene – lansată la 1 februarie 2010 – ideea promovată: Europa mullinguală trebuie susţinută tehnologic – scopul: avansul cercetărilor în domeniul tehnologiilor limbajului Acvităţile META-NET • META-VISION: promovează o comunitate inﬂuenţială, unită în jurul unei agende strategice comune de cercetare • META-SHARE: o infrastructură publică distribuită pentru schimbul şi partajarea de resurse • META-RESEARCH: construieşte punţi de legătură între domenii tehnologice învecinate Actorii TL • În principal: întreprinderi private cu sediul în America de Nord • De la sfârșitul anilor 1970, Uniunea Europeană a înţeles importanţa tehnologiilor lingvisce ca motor al unităţii europene, şi a început ﬁnanţarea primelor proiecte de cercetare, cum a fost EUROTRA Ce sunt TL? • Cele mai multe aplicaţii din TL: metode stasce (imprecise) care nu ulizează cunoșnţe lingvisce de adâncime – exemplu: traducerea automată • Metode simbolice • Metode mixte Limbi străine și vorbitorii lor • 57% dintre ulizatorii de Internet din Europa achiziţionează bunuri şi servicii în limbi diferite de cea maternă (engleza, franceza, germana şi spaniola) • 55% dintre ulizatori citesc conţinut într-o limbă străină • 35% ulizează o altă limbă pentru a scrie e-mail- uri sau a publica comentarii pe web (sursa: Directoratul general pentru Societatea Infromaţională și Media al Comisiei Europeane User Language Preferences Online, 2011 hp://ec europa eu/public op ﬂ 313 en pdf) Limbile: bunuri culturale ale Europei • Limbi intens vorbite (engleza, spaniola) vor rămâne prezente în societatea şi pe piaţa digitală • Multe limbi europene ar putea ﬁ deconectate de la comunicarea digitală şi ar putea deveni irelevante pentru societatea Internetului – o asel de evoluţie ar slăbi poziţia Europei pe piaţa globală – ar ﬁ în contradicţie cu obiecvul strategic al parcipării egale a ﬁecărui cetăţean european, indiferent de limba lui Care dintre limbile europene va prospera în societatea virtuală a informaţiei şi cunoaşterii şi care sunt sorte dispariţiei? Momentul Gutenberg • Limbile părite au câșgat în popularitate • Limbile rămase în afara parului au rămas în urmă Momentul Tim Berners Lee • Limbile promovate pe Internet sunt extrem de mult ulizate • Internetul inﬂuenţează defavorabil limbile mici Limba română în lume • 29 000 000 de vorbitori: – limbă maternă a 25 000 000 de vorbitori: aprox 21 500 000 în România plus aprox 3 500 000 – în Republica Moldova (oﬁcial: moldovenească) – ţările vecine României (Albania, Bulgaria, Croaţia, Grecia, Ungaria, Fosta Republică Iugoslavă a Macedoniei, Serbia, Ucraina) şi comunităţi de imigranţi din Australia, Canada, Israel, America Lană, Turcia, S U A şi alte ţări Europene şi Asiace: aprox 4 000 000 de vorbitori navi de română – Româna este limbă oﬁcială în Provincia Autonomă Voivodina din Serbia, în Muntele Athos autonom din Grecia, în Uniunea Europeană şi în Uniunea Lană – este recunoscută ca limbă minoritară în Ucraina Dialecte • Incluse în Cartea Roşie a Limbilor pe Cale de Dispariţie UNESCO: • Daco-Româna / Româna • Aromâna (aprox 600 000 de vorbitori în Albania, Bulgaria, Grecia şi Macedonia) • Istro-Româna (15 000 de vorbitori în 2 zone mici din Peninsula Istria, Croaţia) • Megleno-Româna (aprox 5 000 de vorbitori în Grecia şi Macedonia) Studiul limbii române în străinătate • Primele exnderi în sistem franciză ale şcolilor şi universităţilor din România au apărut în Republica Moldova în 2000 • Iniţiave în diaspora: • școala de limba română din Kitchener, Canada; • Centrul Euxodius Hurmuzachi: anual, sute de burse în România pentru minorităţile române din ţările vecine • Instutele Culturale Române: 70 centre în 19 oraşe din lume (inclusiv Bucureş, New York, Paris, Londra, Roma, Istanbul, Venezia etc ) LR în internet (2010) • 44,2% dintre români aveau acces la un calculator acasă, • 35,5% (i e 7 786 700 de români) erau ulizatori de Internet (aprox 60% dintre ei: ulizatori zilnici)  România pe locul 8 într-un top 10 al uliza- torilor de Internet din Europa • Peste 500 000 de site-uri web înregistrate cu domeniul ro • Anul 2000: numai 3,6% din populaţie (adică 800 000 de români) foloseau Internetul  creştere de aproape zece ori LR în internet (2010) – connuare • Uniunea Lană, 2007: similar cu tendinţa celorlalte limbi neolane, prezenţa limbii române pe Internet a crescut din 1998 până în 2007 • vigoarea ﬁecărei limbi (prezenţa limbilor studiate în spaţiul virtual): procentul de pagini web în limba română împărţit la procentul de prezenţă relavă a vorbitorilor limbii din lumea reală: 0,6 (2007), 4,44 (engleză), 2,24 (franceză) şi 2,93 ( italiană) • româna este singura limbă care a cunoscut o creştere în vigoare în perioada 2005-2007 (înaintea integrării în Uniunea Europeană) Un lanţ de prelucrare textuală Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Curăţarea Eliminarea Recunoașteea Standardizarea textului formatărilor limbii codurilor Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Segmentare Segmentare Etichetare Recunoașterea Recunoașterea la fraze la cuvinte la PDV lemelor grupurilor Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Dezambiguizarea Recunoașterea Recunoașterea sensurilor rolurilor cadelor verbelor semantice Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Segmentare Adnotare la clauze sintactică Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Rezoluţia Parsarea anaforei discursului Rezumare Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Rezoluţia Recunoașterea Analiză anaforei evenimentelor temporală și a situaţiilor Un modul Prelucrare independentă de limbă Resurse dependente de limbă Exemplu: un parser sintacc Parser: software independent de limbă set de reguli sintactice pentru limba L Cum se obţin resursele? Pasul 1: extragerea experzei umane text text adnotat Exemplu de resursă: treebank Exemplu de adnotare sintaccă Cum se obţin resursele? Pasul 2: sinteza modelelor text Program de set de învățare reguli Cum se obţin resursele? Pasul 2: evaluarea text Parser sintactic limbă set de reguli pt limba română Situaţia LR pe domenii • Foarte slab: – generarea de limbaj, – sisteme de gesonare a dialogului – construirea de corpusuri mulmodale – un corpus de referinţă care să ﬁe refolosit pentru evaluarea automată a parsărilor nu există încă – procesarea vorbirii • Relav bine: – analiza sintaccă de adâncime – procesarea avansată a discursului • Semniﬁcave: – tokenizarea, – semanca propoziţiilor – sisteme de întrebare-răspuns, • Resursele sunt mai puţin dezvoltate decât instrumentele • Sistemele existente pentru limba română nu sunt disponibile, cu câteva excepţii: serviciile web pentru procesări de bază, analiză morfologică, instrumente de întrebare-răspuns şi sisteme de traducere automată • Există Instrumente care acoperă semanca propoziţiei şi regăsirea de informaţii, Drepturile de proprietate intelectuală • Legea restricţionează ulizarea textelor digitale, cum ar ﬁ cele publicate on-line de ziare, pentru cercetări empirice lingvisce și pentru tehnologiile limbajului, de exemplu pentru construirea modelelor stasce de limbă Prelucrarea vorbirii Traducere automată Analiza de text Resurse pentru text și vorbire i: 8 an n 1 N î LA RO EU1993-2011 oli şc 10 Consorţiul de Informazare pentru Limba Română – ConsILR 8 ediţii începând din 2001 